Anthropic最新AI模型能察覺「被測試」 要求測試者「老實點」

【編譯黃惠瑜/綜合外電】美國人工智慧(AI)新創公司Anthropic近日公布最新模型Claude Sonnet 4.5的安全分析報告。報告揭示,Claude Sonnet 4.5在測試過程中,竟能察覺自己可能正被測試,甚至主動要求測試者說實話。